Model Selection

Low character error rate

# Low character error rate

Phi 4 Multimodal Instruct Ko Asr

A Korean automatic speech recognition (ASR) and speech translation (AST) model fine-tuned based on microsoft/Phi-4-multimodal-instruct, demonstrating excellent performance on the zeroth-korean and fleurs datasets.

Transformers Korean

Whisper Large V3 Cantonese

A Cantonese automatic speech recognition model fine-tuned on Whisper v3, trained on the Common Voice 17 dataset

Speech Recognition

Transformers Other

Court Records Htr

A handwriting recognition model fine-tuned from Microsoft's TrOCR, specialized for 19th-century Finnish and Swedish court record documents

Text Recognition

Kansallisarkisto

A Ukrainian automatic speech recognition model trained on the mHuBERT-147 base model, supporting Ukrainian speech-to-text tasks.

Speech Recognition Other

Trocr Base Printed Captcha Ocr

A captcha OCR model fine-tuned based on microsoft/trocr-base-printed, designed to extract text from image captchas.

Text Recognition

Transformers English

Whisper Large V2 Mn 13

A Mongolian speech recognition model fine-tuned on Mongolian datasets based on OpenAI's whisper-large-v2 model, supporting automatic speech recognition tasks in Mongolian.

Speech Recognition

Transformers Other

Whisper Large V2 Cantonese

A Cantonese automatic speech recognition (ASR) model fine-tuned based on OpenAI Whisper Large V2, trained on the Common Voice 11.0 Cantonese dataset with a character error rate (CER) of 6.21%.

Speech Recognition

Transformers Other

Whisper Small Chinese Base

A Chinese speech recognition model fine-tuned on the google/fleurs cmn_hans_cn dataset based on openai/whisper-small

Speech Recognition

Whisper Large V2 Cantonese

An automatic speech recognition model fine-tuned on Cantonese dataset based on OpenAI Whisper Large V2, achieving a character error rate of 6.7274% on the test set

Speech Recognition

Transformers Other

Wav2vec2 Bloom Speech Tgl

A Tagalog speech recognition model fine-tuned based on facebook/wav2vec2-xls-r-300m

Speech Recognition

Transformers Other

Wav2vec2 Large Xlsr 53 Cantonese

A Cantonese fine-tuned speech recognition model based on facebook/wav2vec2-large-xlsr-53 using the Common Voice corpus version 8.0

Speech Recognition

Transformers Other

Wav2vec2 Xls R 1b Italian Doc4lm 5gram

Italian speech recognition model fine-tuned from XLS-R 1B parameter model, supports recognition with language model

Speech Recognition

Transformers Other

radiogroup-crits

Wav2vec2 Xlsr 300m Finnish Lm

A Finnish automatic speech recognition model fine-tuned based on facebook/wav2vec2-xls-r-300m, trained with 275.6 hours of Finnish annotated data, supports use with KenLM language model.

Speech Recognition

Transformers Other

Wav2vec2 Xls R 1b Italian Robust

An Italian automatic speech recognition model fine-tuned on Common Voice 7 and Libri Speech datasets based on facebook/wav2vec2-xls-r-1b

Speech Recognition

Transformers Other

Wav2vec2 10july

This is a German automatic speech recognition model based on the XLSR Wav2Vec2 architecture, fine-tuned on the Common Voice German dataset.

Speech Recognition

Transformers German

Wav2vec2 Large Xlsr 53 Polish

XLSR-53 large model speech recognition system optimized for Polish, fine-tuned based on facebook/wav2vec2-large-xlsr-53, supports Polish automatic speech recognition

Speech Recognition Other

Wav2vec2 Large Xls R 300m Ru

This is a Russian automatic speech recognition model based on the Wav2Vec2 XLS-R architecture with a parameter scale of 300m, evaluated on public speech and robust speech event datasets.

Speech Recognition

Transformers Other

Wav2vec2 Xls R 300m Es

This model is a fine-tuned Spanish automatic speech recognition model based on facebook/wav2vec2-xls-r-300m on the COMMON_VOICE - ES dataset.

Speech Recognition

Transformers Spanish

Wav2vec2 Large Xlsr 53 Finnish

A Finnish automatic speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53, supporting 16kHz sampled audio input

Speech Recognition

Transformers Other

Wav2vec2 Large Xlsr 53 Estonian

An automatic speech recognition model fine-tuned for Estonian using the Common Voice dataset, based on facebook/wav2vec2-large-xlsr-53

Speech Recognition

Transformers Other

Wav2vec2 Large Xlsr 53 Russian

A Russian speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53, supporting 16kHz sampled audio input

Speech Recognition Other

Wav2vec2 Large Xlsr 53 Hungarian

This is a fine-tuned XLSR-53 large model for Hungarian speech recognition tasks, trained on Common Voice and CSS10 datasets.

Speech Recognition Other

Wav2vec2 Large Xlsr 53 Greek

A Greek speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53, supporting 16kHz audio input.

Speech Recognition

Transformers Other

Wav2vec2 Large Xlsr 53 Persian

XLSR-53 large model speech recognition system optimized for Persian, fine-tuned based on facebook/wav2vec2-large-xlsr-53 architecture

Speech Recognition Other

Wav2vec2 Xls R 300m Hy

An automatic speech recognition (ASR) model fine-tuned on Armenian language datasets based on facebook/wav2vec2-xls-r-300m, supporting Armenian speech-to-text tasks.

Speech Recognition

Transformers Other

Wav2vec2 Large Xls R 1b Indonesian

An automatic speech recognition model fine-tuned on the Common Voice Indonesian dataset based on facebook/wav2vec2-xls-r-1b

Speech Recognition

Transformers Other

Wav2vec2 Xlsr 1b Finnish

A fine-tuned version of Facebook's wav2vec2-xls-r-1b model for Finnish automatic speech recognition (ASR), trained with 259.57 hours of annotated Finnish speech data

Speech Recognition

Transformers Other

Xlsr 300m CV 8.0 50 EP New Params Nl

This is an automatic speech recognition (ASR) model based on the XLS-R architecture with 300M parameters, specifically optimized for Dutch and trained on the Common Voice 8.0 dataset.

Speech Recognition

Transformers Other

Xlsr300m Cv 7.0 Nl Lm

XLS-R-300M is an automatic speech recognition (ASR) model specifically optimized for Dutch, trained on the Common Voice 8 Dutch dataset.

Speech Recognition

Transformers Other

Wav2vec2 Large Xls R 300m Bg V1

This is an automatic speech recognition (ASR) model fine-tuned on Bulgarian speech datasets based on the facebook/wav2vec2-xls-r-300m model.

Speech Recognition

Transformers Other

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase